岗位职责:
岗位职责:
1、负责设计和开发分布式的网络爬虫应用,包括调度、抓取、入库等内容,进行互联网相关信息的抓取和分析。
2、实现大规模文本、图像数据的抓取、抽取,去重、分类,垃圾过滤,质量识别、解析入库等工作 。
3、网络爬虫架构设计、功能开发及优化。
4、网页信息抽取等核心算法的研究和优化。负责公司运营平台开发工作。
5、参与项目整体规划设计过程,制定项目迭代计划。
6、负责解决项目相关的开发需求以及Bug修正,相关的问题的沟通协调工作。
岗位要求:
1、计算机相关专业,具备1年及以上开发项目经验;最好有广告行业、Web应用系统开发行业经验。
2、掌握网络爬虫开发原理,对互联网各种类型数据交互模式熟悉,知道如何处理需登录网站、动态网页等各种情况下的数据采集方法。
3、精通html语言,熟悉开源工具,熟悉基于正则表达式、XPath等的信息抽取技术。
4、有网络爬虫开发经验、有scrapy等开源抓取工具开发经验优先。
5、熟悉至少一种关系型数据库(Mysql等),熟悉Nosql,hbase等技术优先。
6、逻辑思维清晰,做事有条理,具备较好的数据分析能力和解决问题的能力。
7、工作积极主动、严谨负责。学习能力强,有一定的技术狂热,愿意学习和接受新知识和技术,有一定的英语阅读能力,会用GOOGLE,STACKOVERFLOW搜索问题,对全栈工程师的概念有了解。
职能类别:
数据库工程师/管理员
系统架构设计师
关键字:
python
爬虫